home *** CD-ROM | disk | FTP | other *** search
/ Cream of the Crop 1 / Cream of the Crop 1.iso / EDITOR / KDP32_1.ARJ / DICMERGE.DOC < prev    next >
Text File  |  1992-04-24  |  9KB  |  178 lines

  1.                        DICMERGE.EXE (VERSION 2)
  2.                    DICTIONARY MAINTENANCE FOR JWRITE
  3.  
  4. 1. Introduction.
  5.  
  6. JWRITE has no built-in functions for the maintenance of the dictionary. This
  7. is nevertheless a desirable feature to have. If the standard dictionary does
  8. not contain kanji equivalents of words which you frequently need in your field
  9. of business, it would be nice to be able to add them to the dictionary.
  10.  
  11. This IS possible, using the enclosed program DICMERGE.EXE, but I must warn you
  12. that this is a rather complicated operation. Please follow these instructions
  13. carefully. It is advisable to copy the dictionary (WNNSJIS.DIC) and its index 
  14. file (WNNSJIS.IND) to somewhere for safekeeping.
  15.  
  16.  
  17. 2. Dictionary files
  18. A dictionary file like WNNSJIS.DIC consists of lines of SJIS coded text. Every
  19. line consists of the following elements, from left to right:
  20.  
  21. a- the KEYWORD, which must be in ascii (hankaku romaji) or hiragana. Katakana
  22.    keywords are not allowed. From version 2, the keyword is allowed
  23.    to be a "key phrase" which may include spaces. The lines may in general
  24.    not begin with a space; this is considered a "sort violation" and causes
  25.    the program to abort (see below).
  26. b- one SPACE (don't forget this!)
  27. c- one RIGHT SLASH (/).
  28. d- one or more possible TRANSLATIONS for the keyword. The translations may
  29.    be written in any character type, katakana, hiragana, kanji, big or
  30.    small ascii, or special characters.
  31.    Every translation, including the last one, must be followed by a right
  32.    slash. Any text after the last slash will be ignored.
  33. e- a LINE FEED CHARACTER for signalling the end of the line. It would be
  34.    possible to have carriage return - line feed combinations at the end of
  35.    each line, but in a dictionary containing tens of thousands of lines, that
  36.    would just be tens of thousands of extra bytes.
  37.  
  38. An example of a dictionary line is:
  39.  
  40. é½é▒éñ /è±ì`/ï@ì\/ïCî≤/
  41.  
  42. In other words, the dictionary is just a text file which can be read and
  43. edited (in principle) by JWRITE itself. In theory, JWRITE could be directly
  44. used for maintenance work on its own dictionary. Unfortunately, the size of the
  45. dictionary file makes this impossible in practice. The dictionary file cannot
  46. possibly fit in memory. (You can try loading it with JWRITE WNNSJIS.DIC, to see
  47. the beginning of the dictionary, but please do not actually try to change
  48. anything. You can also view, but not edit, the entire dictionary if you use
  49. Vernon Buergs LIST.COM, version 7.5i. Use the /B switch to let LIST run under
  50. KDPLUS. If you use the KDPLUS keyboard input utility KJIN, you can even
  51. look up words in the dictionary using LIST.)
  52.  
  53. However, you can add new information to the dictionary by making a small
  54. dictionary for yourself, containing the information that you want to add, and
  55. merging it with the existing dictionary. This can be done with the program
  56. DICMERGE.
  57.  
  58. Notice that it is only possible to ADD to the dictionary this way. You cannot
  59. remove anything from it (not with this utility, anyway. Utilities for removing
  60. dictionary lines can, however, be made. They should overwrite the un-needed
  61. lines with spaces; a DICMERGE operation on the file will then re-create a
  62. valid index).
  63.  
  64. 3. Making an update dictionary
  65. You make your update dictionary as a text file, using the rules a-d specified
  66. above (rule e is not important for the update file, because DICMERGE will
  67. convert CR/LF combinations to single LF's). You can add completely new
  68. keywords with their translations, and also new translations for existing
  69. keywords. For instance, the present version of the WNNSJIS.DIC has only one
  70. translation for the keyword é┐éπéñéó, namely Æìê╙ . Now imagine that you often
  71. need military terms, and you want to have the word Æåê╤ (also pronounced
  72. é┐éπéñéó) in the dictionary as well. Your update text (call it, for instance,
  73. PRIVATE.DIC) must then contain the line
  74.  
  75. é┐éπéñéó /Æåê╤/
  76.  
  77. (Because Æåê╤ is not in the dictionary yet, you must construct the word from
  78. the separate kanji Æå and ê╤, which are in the dictionary as single kanji,
  79. to be found through their pronunciations é┐éπéñ and éó).
  80.  
  81. Your update text may contain many such lines. It is IMPORTANT (in fact this is
  82. the most important and the most difficult bit of the whole operation) that the
  83. file be SORTED:
  84.  
  85.   -the lines with alphabetical keyword must come before the lines
  86.    with hiragana keyword
  87.   -the lines with alphabetical keyword must be in alphabetical order (in fact,
  88.    in standard ASCII order. Look at any ASCII table).
  89.   -the lines with hiragana keyword must be in Japanese kana order
  90.    (éá-éó-éñ-éª-é¿-é⌐-é½-é¡-é»....etc.)
  91.  
  92. When you have finished, save the file. If you're not sure about the sorting,
  93. use the DOS SORT utility.
  94.  
  95.  
  96. 4. Merging with the existing dictionary
  97.  
  98. Now go to DOS and type
  99.  
  100. DICMERGE
  101.  
  102. Type in the names of the 2 dictionaries: file 1 is PRIVATE.DIC, file 2 is the
  103. existing dictionary, WNNSJIS.DIC. The new (merged) dictionary will be called
  104. MERGE.DIC; at the same time an index file will be made for it, MERGE.IND.
  105. MERGE.DIC will separate lines by line feeds only, no carriage returns.
  106.  
  107. If you type in only one dictionary name, and just press ENTER when asked
  108. for the other one, DICMERGE will still run; its only function will then
  109. be to re-create the index for the one dictionary that you specified. (You
  110. might need this if the index file has become lost or corrupted).
  111.  
  112. The merge process will take some time (a minute or so, for a large dictionary).
  113. You can follow its progress on your screen, as new entries are constructed for
  114. the index (this works best when you are in the KDPLUS environment).
  115.  
  116. Lines which are illegally-formed (e.g. lines with only one slash in them, or
  117. lines which begin with a katakana or a kanji) are discarded. The program will 
  118. warn you, but continue with the merge process.
  119.  
  120. However, lines which are otherwise legally-formed but are not in proper sorted
  121. order will cause the program to abort, displaying the location of the "sort
  122. violation". You can then try to correct the situation before proceeding to the
  123. next step. If the program halts for that reason, there will be no MERGE.DIC
  124. and MERGE.IND files generated (for your protection). 
  125.  
  126. When the merge process is finished, you must enter the following commands:
  127.  
  128.         del wnnsjis.*   (I hope you saved the old version somewhere..)
  129.         ren merge.* wnnsjis.*
  130.  
  131. From that moment, the new keywords and new meanings have been added to the
  132. dictionary, and are accessible by means of the ALT-L function of JWRITE. If
  133. there were "merged" entries (the same keyword occurring in both input
  134. dictionaries but with different translations) the translations from the
  135. first input dictionary will be listed first on the corresponding line of the
  136. output dictionary.
  137.  
  138. 5. A tip.
  139. Here and there in public domain sources you can find dictionary files. If
  140. you are sure that they conform to the rules mentioned in section 2, you can
  141. merge them with your existing dictionary to increase its capabilities. There
  142. will be a penalty: the bigger the dictionary, the slower it will be in general.
  143. Test it with a "slow word", like ÉVò╖ (the position of this word in the list
  144. is such that looking for it will take some time, more than a second).
  145.  
  146.  
  147. 6. New features in version 2.
  148. It is now possible to do a DICMERGE on only one dictionary (just press ENTER
  149. when asked for the other one). This will re-create the index.
  150.  
  151. The program performs more stringent checking on the dictionary lines, reducing
  152. the chances of destroying your dictionary by merging it with a file containing
  153. illegal lines. 
  154.  
  155. It is now possible (in principle) to delete lines from the dictionary by
  156. overwriting them with spaces.
  157.  
  158. "Key phrases" (with spaces in them) are now allowed. However, the lookup
  159. mechanism of JWRITE will not recognize them unless your version of JWRITE
  160. is 1.5 or higher. 
  161.  
  162. Katakana keywords are now detected and discarded. In the previous version
  163. it seemed that you could get away with including katakana keywords (if you
  164. put them at the end of the update dictionary), but in fact each katakana entry
  165. would make some alphabetic entries inaccessible by destroying the index 
  166. pointers to them. 
  167.  
  168.  
  169. 7. Note.
  170. A file NUMBERS.DIC, with which you can extend the dictionary with novel
  171. number symbols like çD and ç[, has been provided in this archive for
  172. test purposes.
  173.  
  174. Tokyo, 5 January 1992 (Revised 3 March 1992)
  175. Jan W. Stumpel
  176.  
  177.  
  178.